Day 20 - 其他開源資料集、公開平台 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 20

自我挑戰組

30天從零開始學習NLP(自然語言處理) 系列第 20 篇

Day 20 - 其他開源資料集、公開平台

15th鐵人賽 dataset

肉彈

2023-10-05 21:07:52

1357 瀏覽

分享至

這邊會介紹除了 Hugging Face 它本身提供的 Dataset 以外還有哪些資料集我們可以拿來做運用。

1. Kaggle 網站連結

kaggle 是一個很大的資料科學平台，也是一個資料分析的競賽平台，Kaggle 有各種資料分析的比賽，這邊要註冊帳號。

其中它有一個 Dataset 專區，提供許多已經被整理好的資料提供大家下載。

這裡我試著搜尋 NLP 它就會出現這些相關的資料

我選擇第一個，右上角就有 Download 鍵供我下載

2. Recommender Systems and Personalization Datasets 平台連結

這個平台是由Julian McAuley在加利福尼亞大學聖地亞哥分校（UCSD）建立的，用於研究和教育目的。它提供了一系列的數據集，這些數據集是由他們的實驗室收集和整理的，用於研究推薦系統和個性化建模相關的問題。

這些數據集包含了各種特徵，如用戶和物品的互動、星級評分、時間戳、產品評論、社交網絡數據、物品之間的關係（例如共同購買和兼容性）、產品圖片、價格、品牌和類別信息、GPS數據、心率序列等等。

3. 政府資料開放平台連結

顧名思義就是提供各種政府機關和相關實體所收集、維護和發佈的數據和資訊。

它的分類蠻細的，分為中央機關、地方機關、常用主題、服務分類甚至還有檔案格式的分類

這邊我選一個農業部活動預告的檔案
它有兩種下載格式 JSON 和 CSV

4. CKIP Lab 中文詞知識庫連結

CKIP Lab 是台灣中研院語言學研究所的實驗室，而 CKIP Lab 中文詞知識庫則是該實驗室內負責建設中文詞知識庫的小組它們所建構和維護的中文詞知識庫，知識庫包括了大量的中文詞彙，以及與這些詞彙相關的語義信息、詞性標記、詞義消歧、詞典等，這些資源對於中文自然語言處理和文本分析非常重要。

提供他們的資源

他們也有使用自己訓練的模型做出 demo 站台供大家試試

參考資料

Day 19 - 標記資料工具介紹

Day 21 - 使用 Datasets 庫 (1) - Hugging Face Hub 的 dataset

系列文

30天從零開始學習NLP(自然語言處理) 共 30 篇

RSS系列文訂閱系列文

5 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

30天從零開始學習NLP(自然語言處理) 系列 第 20 篇